Training Shallow and Thin Networks for Acceleration via Knowledge Distillation with Conditional Adversarial Networks

利用条件对抗网络来学习损失函数,从而将知识从teacher转移到student。

网络介绍

网络结构:
network

总体损失:
loss

LS即普通分类损失函数:
LS loss

由于在discriminator训练中容易忽略条件向量,故在训练student网络中采用实例对齐方式(教师网络与学生网络输出之间实例对齐),即:
LF loss
其中,F(·)为学生网络,t_i为输入图像经过预训练教师网络后生成对数向量。

discriminator损失:
discriminator loss

LA loss

LDS loss